Evolusi Arsitektur MLLM
Evolusi Model Bahasa Besar Multimodal (MLLM) menandai pergeseran dari wadah khusus modality ke Ruang Representasi Terpadu, di mana sinyal non-teks (gambar, audio, 3D) diterjemahkan menjadi bahasa yang dipahami oleh LLM.
1. Dari Visi ke Multisensor
- MLLM Awal:Berfokus terutama pada Transformator Visi (ViT) untuk tugas gambar-teks.
- Arsitektur Modern:Integrasikan Audio (misalnya, HuBERT, Whisper) dan Awan Titik 3D (misalnya, Point-BERT) untuk mencapai kecerdasan lintas-modality sejati.
2. Jembatan Proyeksi
Untuk menghubungkan modality yang berbeda ke LLM, diperlukan jembatan matematis:
- Proyeksi Linier:Pemetaan sederhana yang digunakan dalam model awal seperti MiniGPT-4.
$$X_{llm} = W \cdot X_{modality} + b$$ - MLP Berlapis Ganda:Pendekatan berlapis dua (misalnya, LLaVA-1.5) yang menawarkan penyesuaian unggul atas fitur kompleks melalui transformasi non-linier.
- Penyempel/Pengabstrak:Alat canggih seperti Perceiver Resampler (Flamingo) atau Q-Former yang menyederhanakan data berdimensi tinggi menjadi token dengan panjang tetap.
3. Strategi Dekoding
- Token Diskret:Mewakili output sebagai entri kamus tertentu (misalnya, VideoPoet).
- Embedding Kontinu:Menggunakan sinyal "lembut" untuk membimbing generator turunan khusus (misalnya, NExT-GPT).
Aturan Proyeksi
Agar LLM dapat memproses suara atau objek 3D, sinyal harus diproyeksikan ke ruang semantik yang sudah ada di LLM agar diinterpretasikan sebagai "sinyal modality" bukan sebagai gangguan.
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?
Question 2
What is the primary role of ImageBind or LanguageBind in this architecture?
Challenge: Designing an Any-to-Any System
Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.
You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.
Step 1
Select the correct encoder for the input signal.
Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Step 2
Apply a Projection Layer.
Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Step 3
Generate and Decode the output.
Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.